热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

都会|前文_FlinkonYarn三部曲之三:提交Flink任务

篇首语:本文由编程笔记#小编为大家整理,主要介绍了FlinkonYarn三部曲之三:提交Flink任务相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Flink on Yarn三部曲之三:提交Flink任务相关的知识,希望对你有一定的参考价值。



欢迎访问我的GitHub



  • 本文是《Flink on Yarn三部曲》系列的终篇,先简单回顾前面的内容:



  1. 《Flink on Yarn三部曲之一:准备工作》:准备好机器、脚本、安装包;

  2. 《Flink on Yarn三部曲之二:部署和设置》:完成CDH和Flink部署,并在管理页面做好相关的设置;

现在Flink、Yarn、HDFS都就绪了,接下来实践提交Flink任务到Yarn执行;


前文链接



  1. 《Flink on Yarn三部曲之一:准备工作》

  2. 《Flink on Yarn三部曲之二:部署和设置》


两种Flink on YARN模式



  • 实践之前,对Flink on YARN先简单了解一下,如下图所示,Flink on Yarn在使用的时候分为两种模式, Job ModeSession Mode

  • Session Mode :在YARN中提前初始化一个Flink集群,以后所有Flink任务都提交到这个集群,如下图:

  • Job Mode :每次提交Flink任务都会创建一个专用的Flink集群,任务完成后资源释放,如下图:

  • 接下来分别实战这两种模式;


准备实战用的数据(CDH服务器)



  • 接下来提交的Flink任务是经典的WordCount,先在HDFS中准备一份文本文件,后面提交的Flink任务都会读取这个文件,统计里面每个单词的数字,准备文本的步骤如下:



  • SSH登录CDH服务器;



  • 切换到hdfs账号: su - hdfs



  • 下载实战用的txt文件:



wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt


  • 创建hdfs文件夹: hdfs dfs -mkdir /input



  • 将文本文件上传到/input目录: hdfs dfs -put ./GoneWiththeWind.txt /input



  • 准备工作完成,可以提交任务试试了。




Session Mode实战



  • SSH登录CDH服务器;

  • 切换到hdfs账号: su - hdfs

  • 进入目录: /opt/flink-1.7.2/

  • 执行如下命令创建Flink集群, -n 参数表示TaskManager的数量, -jm 表示JobManager的内存大小, -tm 表示每个TaskManager的内存大小:

./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024


  • 创建成功后,控制台输出如下图,注意红框中的提示,表明可以通过38301端口访问Flink:

  • 浏览器访问CDH服务器的38301端口,可见Flink服务已经启动:

  • 浏览器访问CDH服务器的8088端口,可见YARN的Application(即Flink集群)创建成功,如下图,红框中是任务ID,稍后结束Application的时候会用到此ID:

  • 再开启一个终端,SSH登录CDH服务器,切换到hdfs账号,进入目录: /opt/flink-1.7.2

  • 执行以下命令,就会提交一个Flink任务(安装包自带的WordCount例子),并指明将结果输出到HDFS的 wordcount-result.txt 文件中:

bin/flink run ./examples/batch/WordCount.jar \\
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \\
-output hdfs://192.168.50.134:8020/wordcount-result.txt


  • 执行完毕后,控制台输出如下:

  • flink的WordCount任务结果保存在hdfs,我们将结果取出来看看: hdfs dfs -get /wordcount-result.txt

  • vi打开wordcount-result.txt文件,如下图,可见任务执行成功,指定文本中的每个单词数量都统计出来了:

  • 浏览器访问Flink页面(CDH服务器的38301端口),也能看到任务的详细情况:

  • 销毁这个Flink集群的方法是在控制台执行命令: yarn application -kill application_1580173588985_0002

  • Session Mode的实战就完成了,接下来我们来尝试Job Mode;


Job Mode



  • 执行以下命令,创建一个Flink集群,该集群只用于执行参数中指定的任务(wordCount.jar),结果输出到hdfs的wordcount-result-1.txt文件:

bin/flink run -m yarn-cluster \\
-yn 2 \\
-yjm 1024 \\
-ytm 1024 \\
./examples/batch/WordCount.jar \\
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \\
-output hdfs://192.168.50.134:8020/wordcount-result-1.txt


  • 控制台输出如下,表明任务执行完成:

  • 如果您的内存和CPU核数充裕,可以立即执行以下命令再创建一个Flink集群,该集群只用于执行参数中指定的任务(wordCount.jar),结果输出到hdfs的 wordcount-result-2.txt 文件:

bin/flink run -m yarn-cluster \\
-yn 2 \\
-yjm 1024 \\
-ytm 1024 \\
./examples/batch/WordCount.jar \\
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \\
-output hdfs://192.168.50.134:8020/wordcount-result-2.txt


  • 在YARN管理页面可见任务已经结束:

  • 执行命令 hdfs dfs -ls / 查看结果文件,已经成功生成:

  • 执行命令 hdfs dfs -get /wordcount-result-1.txt 下载结果文件到本地,检查数据正常;

  • 至此,Flink on Yarn的部署、设置、提交都实践完成,《Flink on Yarn三部曲》系列也结束了,如果您也在学习Flink,希望本文能够给您一些参考,也建议您根据自身情况和需求,修改ansible脚本,搭建更适合自己的环境;


欢迎关注51CTO博客:程序员欣宸


推荐阅读
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • 本文介绍了Swing组件的用法,重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联,可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法,并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
  • 在Docker中,将主机目录挂载到容器中作为volume使用时,常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法,包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法,可以避免在使用Docker时出现无写权限的情况。 ... [详细]
  • eclipse学习(第三章:ssh中的Hibernate)——11.Hibernate的缓存(2级缓存,get和load)
    本文介绍了eclipse学习中的第三章内容,主要讲解了ssh中的Hibernate的缓存,包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]
  • 本文介绍了Perl的测试框架Test::Base,它是一个数据驱动的测试框架,可以自动进行单元测试,省去手工编写测试程序的麻烦。与Test::More完全兼容,使用方法简单。以plural函数为例,展示了Test::Base的使用方法。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • ch3中可视化软件pangolin的安装步骤及注意事项
    本文介绍了在ch3中安装可视化软件pangolin的步骤及注意事项。首先提供了pangolin的下载地址,并说明了下载后需要放到与虚拟机交互的文件夹地址。然后详细介绍了安装pangolin所需的依赖项,并提供了在终端进行安装的命令。最后给出了解压pangolin的步骤。 ... [详细]
  • Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
  • 本文详细介绍了git常用命令及其操作方法,包括查看、添加、提交、删除、找回等操作,以及如何重置修改文件、抛弃工作区修改、将工作文件提交到本地暂存区、从版本库中删除文件等。同时还介绍了如何从暂存区恢复到工作文件、恢复最近一次提交过的状态,以及如何合并多个操作等。 ... [详细]
author-avatar
手机用户2502853881
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有